exgrpo

上海AI实验室开发&

这项由上海AI实验室的詹润哲、李亚福等研究人员联合澳门大学、南京大学、香港中文大学共同完成的研究于2025年10月发表在arXiv预印本平台（论文编号：arXiv:2510.02245v1），有兴趣深入了解的读者可以通过该编号查询完整论文。

实验结果显示，与传统的在线策略RLVR（基于可验证奖励的强化学习）方法相比，ExGRPO在不同基准上均带来了一定程度的性能提升。